寻找最新最佳的3D 建模人工智能。浏览最全面的AI数据库,每日持续更新。
最新
UGCraft AI 专为彻底改变 Roblox 用户生成内容 (UGC) 创作者的工作流程而设计,提供从抽象概念到经过抛光、可发布数字物品的无与伦比的途径。该平台通过允许用户通过简单的文本提示或图像参考生成详细的配饰和服装,消除了传统上与 3D 资产创建相关的较高门槛。无论创作者设想的是错综复杂的哥特式洛丽塔时装还是未来主义的赛博朋克头饰,该工具都能
SAM 3D 是一个强大的 3D 重建模型,能够从 2D 图像创建详细的 3D 场景。该模型是利用大规模真实世界数据来解决物理世界的复杂性和丰富性的一个重要进步。通过 SAM 3D,我们推出了两个新模型:SAM 3D Objects,它实现了物体和场景重建;SAM 3D Body,它专注于人体和形状估计。这两个模型都提供了强大、最先进的性能,将静态 2
Hunyuan3D-Part 是一个从图像生成 3D 部件的管道,包含两个关键组件:P3-SAM 和 X-Part。整体网格输入到部件检测模块 P3-SAM 中,以获取语义特征、部件分割和部件边界框。然后,X-Part 从 P3-SAM 的输出生成完整的部件。该管道能够从图像生成高质量的 3D 部件,并应用于计算机视觉、机器人和计算机辅助设计等各个领域
TRELLIS 3D AI 是一款尖端的工具,旨在通过将标准的二维图像转换为详细的三维模型,彻底改变三维资产的创建过程。此过程由先进技术驱动,该技术分析上传图像的视觉数据,以重建复杂的几何形状并应用生动、准确的纹理。它经过精心设计,可利用独特的 SLAT 表示法来保持源材料的关键结构元素,从而实现专业级输出,使其可供广泛的创作者使用,这些创作者寻求高质
PhysX-3D 是一种端到端的基于物理的 3D 资源生成范式。它旨在通过提出 PhysXNet 来弥补基于物理标注的 3D 数据集中的关键空白。PhysXNet 是首个基于物理的 3D 数据集,系统地涵盖五个基本维度:绝对尺度、材质、可供性、运动学和功能描述。该数据集能够高效地从原始 3D 资源创建基于物理的资源,从而促进能够生成物理可信资源的 3D
OmniPart 是一个用于生成零件感知型 3D 对象的新型框架,它在保持稳健结构内聚力的同时,实现了组件之间的高度语义解耦。该框架旨在克服传统生成方法仅能生成单一形状的局限性,从而限制了它们在交互式应用中的实用性。OmniPart 以独特的方式将复杂的 3D 对象生成任务解耦为两个协同阶段,从而能够创建具有明确、可编辑零件结构的 3D 资源。
Elevate3D 是一个新颖的框架,可将易于获取的低质量 3D 资源转换为更高质量的资源。它增强了低质量的 3D 模型,通过迭代纹理和几何细化将其转换为高质量资源。Elevate3D 的核心是 HFS-SDEdit,这是一种专门的纹理增强方法,可以在显著提高纹理质量的同时,保留外观和几何形状,并修复其质量下降的问题。
Elev
Ultra3D 是一个高效的 3D 生成框架,可在不影响质量的情况下显著加速稀疏体素建模。它利用紧凑的 VecSet 表示在第一阶段高效地生成粗略的对象布局,从而减少 token 数量并加速体素坐标预测。这种方法能够以 1024 的分辨率生成高分辨率 3D 图像,在视觉保真度和用户偏好方面均达到了最佳性能。
Ultra3D 的核
Direct3D-S2 是一个基于稀疏体积的可扩展 3D 生成框架,可在显著降低训练成本的同时实现卓越的输出质量。它引入了空间稀疏注意力 (SSA) 机制,显著提升了扩散变换器 (DiT) 在稀疏体积数据上的计算效率。这使得模型能够有效地处理稀疏体积内的大型标记集,使前向传播速度提升 3.9 倍,后向传播速度提升 9.6 倍。
DeepVerse 是一个用作世界模型的 4D 自回归视频生成模型。它采用文本表示作为通用控制模态,从而能够最大限度地利用基础视频生成模型中固有的条件控制先验。这种设计选择具有两个主要优势:它能够跨不同的控制器架构实现可扩展的适用性,并展示跨叙事视角的稳健控制一致性。DeepVerse 通过对 4D 表示分布进行建模,实现了时间连贯性和长期记忆。
ShapeLLM-Omni 是一个原生多模态大型语言模型,能够理解和生成任意序列的 3D 资源和文本。它通过提供理解和生成 3D 内容的能力,弥补了当前多模态模型仅限于图像和文本的缺陷。这是通过训练 3D 矢量量化变分自编码器 (VQVAE) 实现的,该编码器将 3D 对象映射到离散的潜在空间,以实现高效准确的形状表示和重建。
Pixel3DMM 是一款经过微调的 DINO ViT,用于逐像素表面法线和 UV 坐标预测。它专为单图像 3D 人脸重建而设计,并利用了 DINO 基础模型的潜在特征。该模型引入了定制的表面法线和 UV 坐标预测头,并在三个高质量的 3D 人脸数据集上针对 FLAME 网格拓扑进行训练,最终生成了超过 1000 个身份和 976,000 张图像。这使
HoloTime 是一个框架,它集成了视频扩散模型,可以从单个提示或参考图像生成全景视频,并结合了 360 度 4D 场景重建方法,将生成的全景视频无缝转换为 4D 素材,为用户带来完全沉浸式的 4D 体验。该框架旨在解决现有扩散模型主要专注于建模静态 3D 场景或对象级动态的问题,从而限制了它们提供真正沉浸式体验的能力。
为了
Step1X-3D 是一个用于生成高保真且可控的纹理 3D 资源的开放框架。它通过严格的数据管理流程、两阶段 3D 原生架构以及模型、训练代码和自适应模块的完整开源版本,解决了 3D 生成中数据稀缺、算法限制和生态系统碎片化的挑战。该框架采用基于感知器的潜在编码和锐利边缘采样来保留细节,从而生成严密的 TSDF 表示。
Step
3DV-TON 是一款先进的视频试穿框架,旨在无缝替换视频序列中的服装,并提供高保真、时间一致的效果。传统的视频试穿方法往往难以应对复杂的服装图案和多样的体态,而 3DV-TON 则引入了一种基于漫射的、由纹理 3D 网格引导的方法。这种明确的 3D 引导机制使系统能够直接参考服装纹理运动,确保服装的过渡在整个视频中保持逼真和连贯。通过利用这些可动画化
StdGEN 是一种创新的流程,旨在从单幅图像生成语义分解的高质量 3D 角色,显著推动虚拟现实、游戏和电影制作领域的发展。与以往分解能力有限、输出质量低下和优化时间冗长的方法不同,StdGEN 能够在短短三分钟内高效地生成复杂的 3D 角色,这些角色的语义成分(例如身体、衣服和头发)清晰可辨。其核心是语义感知大型重建模型 (S-LRM),这是一种基于
LHM 是一个突破性的模型,旨在通过单张图像快速、高保真地重建可动画的 3D 人体。它利用多模态 Transformer 架构,通过注意力机制有效地编码人体位置特征和图像特征,解决了分离几何形状、外观和变形的复杂挑战。这能够保留服装的几何形状和纹理细节,并通过 3D 高斯分布生成逼真的 3D 虚拟形象。该模型引入了一种头部特征金字塔编码方案,用于聚合头
Hi3DGen 是一个尖端框架,旨在利用一种新颖的法线桥接技术,从单张 2D 图像生成高保真 3D 几何体。由于 RGB 图像中的域间隙、光照变化和固有的模糊性,传统方法通常难以准确再现细粒度的几何细节。Hi3DGen 通过将图像到几何体的生成过程分解为两个阶段来解决这些挑战:首先,使用注入噪声的双流网络从图像中估计详细的法线图,该网络可以稳定和锐化预
SynCity 是一个创新框架,无需训练即可根据文本提示生成复杂的沉浸式 3D 世界。与需要大量建模、纹理和训练的传统 3D 场景创建方法不同,SynCity 利用预训练的 2D 图像生成器和 3D 生成模型的优势,构建出细节丰富、内容丰富的广阔环境。该系统采用基于图块的方法,将世界的每个部分生成为由其相邻部分构成的 2D 图像,然后将这些图块转换为
VideoDiT 是一个先进的视频生成框架,它弥合了图像扩散变换器和视频合成之间的差距。通过将分布保持变分自编码器 (DP-VAE) 和 3D 扩散变换器集成到预训练的文本转图像 (T2I) 模型中,VideoDiT 能够以最少的附加参数实现高效的联合训练和高质量的视频合成。该架构旨在充分利用强大的图像扩散模型的优势,同时扩展其处理视频数据时空复杂性的